Telegram Group & Telegram Channel
📌 Какой вектор лучше: Dense vs Multi-vector embeddings

Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.

📍 Dense-векторы (single vector per doc):
— быстрые
— экономные по памяти
— слабо улавливают контекст
— «плавают» при сложных запросах
👉 подходят для простого поиска

📍 Multi-vector (late interaction):
— вектор на каждый токен
— сравниваются токены запроса и документа напрямую
— лучше качество на сложных задачах
— выше требования к хранилищу
👉 баланс между скоростью и точностью

📍 Late interaction ≈ золотая середина:
— быстрее, чем cross-encoders
— точнее, чем dense-векторы

📍 Примеры моделей:
— ColBERT — для текстов
— ColPali — multimodal: текст + PDF как картинки
— ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)

Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6422
Create:
Last Update:

📌 Какой вектор лучше: Dense vs Multi-vector embeddings

Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.

📍 Dense-векторы (single vector per doc):
— быстрые
— экономные по памяти
— слабо улавливают контекст
— «плавают» при сложных запросах
👉 подходят для простого поиска

📍 Multi-vector (late interaction):
— вектор на каждый токен
— сравниваются токены запроса и документа напрямую
— лучше качество на сложных задачах
— выше требования к хранилищу
👉 баланс между скоростью и точностью

📍 Late interaction ≈ золотая середина:
— быстрее, чем cross-encoders
— точнее, чем dense-векторы

📍 Примеры моделей:
— ColBERT — для текстов
— ColPali — multimodal: текст + PDF как картинки
— ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)

Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6422

View MORE
Open in Telegram


Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

Telegram announces Search Filters

With the help of the Search Filters option, users can now filter search results by type. They can do that by using the new tabs: Media, Links, Files and others. Searches can be done based on the particular time period like by typing in the date or even “Yesterday”. If users type in the name of a person, group, channel or bot, an extra filter will be applied to the searches.

Unlimited members in Telegram group now

Telegram has made it easier for its users to communicate, as it has introduced a feature that allows more than 200,000 users in a group chat. However, if the users in a group chat move past 200,000, it changes into "Broadcast Group", but the feature comes with a restriction. Groups with close to 200k members can be converted to a Broadcast Group that allows unlimited members. Only admins can post in Broadcast Groups, but everyone can read along and participate in group Voice Chats," Telegram added.

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from hk


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA